基于频率的 Spacy 停用词

Spacy Stopwords based on Frequency

我目前正在寻找一种简单的解决方案来向 spacy 添加自定义停用词。这些停用词应根据词在整个语料库中的绝对频率来确定。例如,在我的特定领域文本中,术语 "patient" 应被视为停用词,因为它出现在所有文档的 70% 中。

我的第一个想法是借助 pandasapply 来实现,但这需要编写我自己的标记化函数。是否可以自定义 Spacy?

感谢您的任何建议

要将自定义停用词添加到 Spacy 中,您可以按照此处给出的解决方案进行操作:Add/remove stop words with spacy 。现在在其他自动获得推荐停用词列表中,您可以使用 NLTK 包来计算词频和文档频率 (tf-idf),然后定义一个 trashold。

如有任何疑问,请随时发表评论。

祝你好运!